Понятия со словосочетанием «извлечение информации»

Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Связанные понятия

База знаний (БЗ; англ. knowledge base, KB) — база данных, содержащая правила вывода и информацию о человеческом опыте и знаниях в некоторой предметной области (ISO/IEC/IEEE 24765-2010, ISO/IEC 2382-1:1993). В самообучающихся системах база знаний также содержит информацию, являющуюся результатом решения предыдущих задач.

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) — компьютерные программы и данные, обеспечивающие анализ, обработку, хранение и поиск аудиоданных, рисунков (OCR) и текстов на естественном языке.

Нижеследующий набор инструментов обработки естественного языка является популярным сборником ПО для обработки естественного языка ( (англ.) NLP). ПО включает набор библиотек, фреймворков и пакетов для символического и статистического анализа естественного языка и обработки речи. Инструменты NLP обычно выполняют обнаружение предложений, токенизацию, определение частей речи, речевых оборотов, лемматизацию, анализ и разрешение кореферентности и т. п.

Систе́ма подде́ржки приня́тия реше́ний (СППР) (англ. Decision Support System, DSS) — компьютерная автоматизированная система, целью которой является помощь людям, принимающим решение в сложных условиях для полного и объективного анализа предметной деятельности. СППР возникли в результате слияния управленческих информационных систем и систем управления базами данных.

Дедуктивная база данных это система баз данных которая может делать выводы (то есть заключать дополнительные факты) на основе правил и фактов хранящихся в (дедуктивной) базе данных. Datalog это язык, обычно используемый для указания фактов, правил и запросов в дедуктивных базах данных. Дедуктивные базы данных выросли из желания сочетать логическое программирование с реляционной базой данных для построения систем, поддерживающих мощный формализм, и по-прежнему быстры и способны справляться с очень...

Экспе́ртная систе́ма (ЭС, англ. expert system) — компьютерная система, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. Современные экспертные системы начали разрабатываться исследователями искусственного интеллекта в 1970-х годах, а в 1980-х годах получили коммерческое подкрепление. Предшественники экспертных систем были предложены в 1832 году С. Н. Корсаковым, создавшим механические устройства, так называемые «интеллектуальные машины», позволявшие находить решения...

Интроспекция виртуальных машин (англ. Virtual machine introspection, VMI) (в компьютерах) — это технология для мониторинга внутреннего состояния виртуальной машины. Она может использоваться для отладки, расследования инцидентов или обнаружения вредоносного кода.Термин интроспекция по отношению к виртуальным машинам впервые был использован в работе Гарфинкеля и Розенблюма. Они предложили подход к защите приложений от атак вредоносных программ. Сейчас интроспекция используется также для обозначения...

Термин машиночитаемость (калька с англ. machine-readable) соответствует возможности декодирования информации из её формы представления (хранения), чтения (т. е. сканирования или восприятия) машиной или компьютером и её интерпретации программным или аппаратным обеспечением. Теоретически, машиной всё может быть прочитано или воспринято, но не обязательно воспринятая информация будет осмыслена.

Визуализаторы — тип программного обеспечения, предназначенный для преобразования различной информации в зрительные образы.

Объектно-ориентированная (объектная) СУБД — система управления базами данных, основанная на объектной модели данных.Эта система управления обрабатывает данные как абстрактные объекты, наделённые свойствами и использующие методы взаимодействия с другими объектами окружающего мира(объектами БД).

Инкапсуля́ция в компью́терных сетя́х — это метод построения модульных сетевых протоколов, при котором логически независимые функции сети абстрагируются от нижележащих механизмов путём включения или инкапсулирования этих механизмов в более высокоуровневые объекты.

Язы́к запро́сов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам.

Семантическая публикация (англ. Semantic publishing) или публикация в семантическом вебе (англ. semantic web publishing) — размещение информации в Интернете в формате документов, сопровождаемых семантической разметкой. Семантическая публикация даёт возможность поисковым машинам более точно интерпретировать структуру и смысл опубликованной информации, что делает поиск информации в Интернете и интеграции данных более эффективным.

Протокол прикладного уровня (англ. Application layer) — протокол верхнего (7-го) уровня сетевой модели OSI, обеспечивает взаимодействие сети и пользователя. Уровень разрешает приложениям пользователя иметь доступ к сетевым службам, таким, как обработчик запросов к базам данных, доступ к файлам, пересылке электронной почты. Также отвечает за передачу служебной информации, предоставляет приложениям информацию об ошибках и формирует запросы к уровню представления. Пример: HTTP, POP3, SMTP.

Эхопроцессор (англ. EchoMail processor — «обработчик эхопочты») или тоссер (англ. tosser, от глагола to toss) — компьютерная программа для обработки эхопочты в Фидонете. Тоссеры обычно могут обрабатывать и нетмейл, но эта функция часто отдаётся трекеру.

Поиск данных — раздел информатики, изучающий алгоритмы для поиска и обработки информации как в структурированных (см. напр. базы данных) так и неструктурированных (напр., текстовый документ) данных. Поиск данных неразрывно связан с понятием фильтрации данных.

Человекочитаемость по отношению к представлению информации означает возможность естественного чтения информации человеком. В большинстве случаев это альтернатива представлению информации, разработанному для чтения компьютерами. Например, цифры, обычно представленные на штрих-кодах UPC — человекочитаемая форма информации, графически представленной штрих-кодом.

Уровень представления (англ. Presentation layer) — шестой уровень сетевой модели OSI.

Семантический рабочий стол (в информатике) — обобщённый термин, обозначающий идеи, связанные с изменением компьютерных пользовательских интерфейсов и возможностей управления данными так, что обмен ими между различными приложениями или задачами упрощается, и невозможная ранее автоматическая обработка данных одним компьютером становится возможной. Сюда также включаются некоторые идеи о возможности автоматического обмена информацией между людьми. Эта концепция связана с семантической паутиной, но отличается...

Тео́рия коди́рования — наука о свойствах кодов и их пригодности для достижения поставленной цели.

Шифрование базы данных — использование технологии шифрования для преобразования информации, хранящейся в базе данных (БД), в шифротекст, что делает ее прочтение невозможным для лиц, не обладающих ключами шифрования.

Декомпиля́тор — это программа, транслирующая исполняемый модуль (полученный на выходе компилятора) в эквивалентный исходный код на языке программирования высокого уровня.

Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Система управления документами, СУД, DMS (англ. Document management system) — компьютерная система (или набор компьютерных программ), используемая для отслеживания и хранения электронных документов и/или образов (изображений и иных артефактов) бумажных документов. Системы управления документами (DMS) обычно рассматриваются как компонент систем управления содержимым масштаба предприятия (Enterprise Content Management System, ECMS), разновидности систем управления содержимым (CMS).

Эвристический анализ (эвристическое сканирование) — совокупность функций антивируса, нацеленных на обнаружение неизвестных вирусным базам вредоносных программ. В то же время этот термин обозначает и один из конкретных способов.

Парсер (англ. parser; от parse – анализ, разбор) или синтаксический анализатор — часть программы, преобразующей входные данные (как правило, текст) в структурированный формат. Парсер выполняет синтаксический анализ текста.

Подробнее: Синтаксический анализатор

Выделение знаний (англ. Knowledge extraction) — это создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, англ. Natural language processing, NLP) и процессу «Извлечения, Преобразования, Загрузки...

Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Защищённый носитель информации — устройство безопасного хранения информации с помощью одного из методов шифрования и возможностью экстренного уничтожения данных.

Информационный язык — специализированный искусственный язык, используемый в различных системах обработки информации. От информационных языков следует отличать языки программирования, машинные языки и формализованные языки науки. Обычно различают...

Канальное шифрование —тип шифрования, при котором криптографическому преобразованию подвергаются все данные, проходящие через все задействованные каналы связи, включая текст сообщения, а также техническую информацию о его маршрутизации, коммуникационном протоколе и т. д..

Поиск в корпоративной среде (корпоративный поиск; enterprise search) – практика подготовки контента из нескольких корпоративных источников данных, таких как базы данных или узлы интранет, к поиску для ограниченного круга лиц.

Микроданные (англ. microdata) — способ семантически размечать сведения о событиях, организациях, людях, товарах на веб-страницах, используя стандартные элементы языка HTML. Сама разметка никак не изменит отображение страницы в браузере; когда программы-обработчики будут способны извлечь из этой же страницы структурированную информацию.

При поиске решений в экономической сфере используются следующие методы обработки и анализа информации...

Подробнее: Методы обработки и анализа экономической информации

Логическая схема — модель базы данных, выраженная в понятиях модели данных. Этим отличается от концептуальной модели, описывающей семантику предметной области без указания технологии (конкретных методов реализации), и от физической модели, которая описывает конкретные физические механизмы, применяемые для хранения данных в накопителях.

Дизассе́мблер (от англ. disassembler ) — транслятор, преобразующий машинный код, объектный файл или библиотечные модули в текст программы на языке ассемблера.

Концептуальное программирование - подход к программированию, описанный Э.Х. Тыугу в одноименной книге . К. программирование предполагает оперирование понятиями (концептами), описанными в терминах предметной области, что позволяет использовать ЭВМ на этапе постановки задачи. Достаточно точное описание задачи позволяет ЭВМ автоматически составлять программы для её решения. Характерными особенностями концептуального программирования являются также использование языка предметной области и использование...

Ме́тод синтакси́ческих шабло́нов — техника автоматического преобразования формализованных структур знаний, хранимых в базе данных, в тексты естественного языка, основана на концепции падежной грамматики Чарльза Филлмора.

Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — это подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Он отличается от методов машинного перевода, основанных на статистике фраз, которые используют отдельно разработанные подкомпоненты.

Стеганография, использующая текстовые контейнеры для скрытия данных, называется текстовой. При скрытии информации используются допущения при расположении и количестве символов в тексте, не учитываемые при прочтении человеком и компьютерном анализе текстового файла. Это может быть дополнительное количество пробелов и знаков табуляции в разных частях строки, чередование некоторых не учитываемых служебных символов, больших и маленьких букв, букв из разных алфавитов, но похоже выглядящих.

Язык спецификаций — формальный язык, предназначенный для декларативного описания структуры, связей, свойств данных и способов их преобразований, (в отличие от активных языков) без явного упоминания порядка выполняемых действий и использования конкретных значений данных.

Проектирование баз данных — процесс создания схемы базы данных и определения необходимых ограничений целостности.

Дескри́птор (от лат. descriptor «описывающий») — лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационно-поисковой системе. Дескриптор однозначно ставится в соответствие группе ключевых слов естественного языка, отобранных из текста, относящегося к определённой области знаний.

Редиректор (англ. redirector, перенаправляющий) — модуль в прокси-серверах, отвечающий за фильтрацию и обработку адресов (URL) запросов от клиентов к серверам. Может быть как встроенным в прокси-сервер, так и запускающийся отдельным приложением (скриптом).

Семанти́ческие веб-се́рвисы (англ. Semantic Web Services, SWS; иногда Semantic Web Web Services, SWWS) — законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для автоматизированного поиска, композиции и выполнения с учетом их семантики. В тематической литературе часто называются «динамической составляющей семантической паутины».

Нейронный процессор (англ. Neural Processing Unit, NPU или ИИ-ускоритель англ. AI accelerator) — это специализированный класс микропроцессоров и сопроцессоров (часто являющихся специализированной интегральной схемой), используемый для аппаратного ускорения работы алгоритмов искусственных нейронных сетей, компьютерного зрения, распознавания по голосу, машинного обучения и других методов искусственного интеллекта.

Разработка алгоритма — особый метод для создания математического способа решения проблемы.

Визуальное программирование — способ создания программы для ЭВМ путём манипулирования графическими объектами вместо написания её текста. Визуальное программирование часто представляют как следующий этап развития текстовых языков программирования. Наглядным примером может служить утилита Визуальный Pascal или Microsoft Visual Studio, где редактируются графические объекты и одновременно отображается соответствующий текст программы. В последнее время визуальному программированию стали уделять больше...